데이터와 정보
데이터(Data)
현실 세계에서 관찰이나 측정을 통해 수집한 단순한 사실이나 결과값으로 가공되지 않은 상태를 말한다.
정보(Information)
의사결정에 도움을 줄 수 있는 유용한 형태로 자료를 가공(처리)해서 얻은 결과물이다.
지식(Knowledge)
데이터 $\rightarrow$ (처리) $\rightarrow$ 정보 $\rightarrow$ (학습) $\rightarrow$ 지식
기존 파일시스템의 한계
파일처리방식은 하나의 파일을 여러 사용자나 애플리케이션에서 동시에 사용하기 위해 원래의 데이터 파일을 복사해서 사용한다. 이때 분산된 데이터 간의 정합성을 유지하는데 과다한 노력이 필요하게 되고 데이터의 정합성을 보장하기 어렵다.
종속성으로 인한 문제점
- 종속성: 업무와 관련된 데이터를 각각의 파일 단위로 저장하며 이러한 파일들을 처리하기 위한 독립적인 애플리케이션과 상호 연동되어 있어야 한다. 즉, 데이터 파일과 애플리케이션이 서로 독립적으로 존재할 수 없다.
- 파일이 보조기억장치에 저장되는 방법이나 저장된 데이터의 접근 방법을 변경할 때는 애플리케이션도 같이 변경해야 한다.
중복성으로 인한 문제점
- 일관성: 원본파일에 변경이 발생한 경우 모든 복사파일에 대한 변경작업을 한꺼번에 병행처리하지 않으면 중복된 데이터 간에 내용이 일치하지 않는 상황이 발생하여 일관성이 없어진다.
- 경제성: 동일한 데이터가 여러 곳에 저장되어 저장공간의 낭비가 있다.
- 보안성: 중복된 모든 데이터에 동등한 보안 수준을 유지하기 어렵다.
- 무결성: 분산된 데이터 간의 정합성을 보장하지 못한다.
데이터베이스
데이터베이스란 특정 조직 내에서 다수의 사용자들이 공유할 수 있도록 통합시키고 컴퓨터 저장 장치에 저장시킨 운영 데이터의 집합을 의미한다.
데이터베이스의 특징
- 통합 데이터: 자료의 중복을 배제한 데이터의 모임
- 저장 데이터: 컴퓨터가 접근할 수 있는 저장매체에 저장된 자료
- 운영 데이터: 조직의 업무를 수행하는 데 있어서 존재가치가 확실하고 없어서는 안 될 반드시 필요한 자료
- 공용 데이터: 여러 응용시스템들이 공동으로 소유하고 유지하는 자료
데이터베이스의 발전
- (1960년대) 플로우차트 중심의 개발 방법을 사용했으며 파일 구조를 통한 데이터 관리
- (1970년대) 계층형 데이터베이스, 망형 데이터베이스 제품의 상용화
- (1980년대) 관계형 데이터베이스의 상용화
- (1990년대) DBMS는 정보시스템의 핵심 솔루션으로 자리잡았으며, 객체지향정보를 지원하기 위해 객체관계형 데이터베이스로 발전
데이터베이스 활용분야
- CRM(Customer Relationship Management): 고객과의 양방향 의사교환과 기업 내/외부의 마케팅 정보를 관리하고 전사차원에서 공유하여 부가가치를 창출
- DW(Dateware House): 기업체의 중심이 되는 주요 업무시스템에서 추출되어 새로이 생성된 데이터베이스로서 의사결정지원시스템을 지원하는 주체적, 통합적, 시간적 데이터의 집합체
- 데이터 마이닝(Data Mining): 데이터베이스에 과거에 알지 못하여 활용하지 못했던 의미 있고 유용한 정보를 도출
데이터베이스 모형
계층형 데이터베이스(Hierarchical Database)
계층형 데이터베이스는 데이터의 논리적 구조도가 트리 형태로, 데이터가 계층적으로 상하 종속적인 관계로 구성되어 있다.
- 데이터의 액세스 속도가 빠르고 데이터 사용량을 쉽게 예측할 수 있다.
- 데이터 구조가 상하종속적인 관계로 구성되어 있기 때문에 초기 세팅 후 변화를 수용하기가 쉽지 않다.
- 계층형 모델에서는 엔터티(Entity)를 세그먼트(Segment)라 부른다.
- 레코드 삭제시 연쇄 삭제가 된다.
- 엔터티 타입들 간에는 사이클 허용되지 않는다.
- 대표 DBMS: IMS
망형 데이터베이스
망형 데이터베이스는 데이터베이스의 논리적 구조 표현을 그래프 형태로 표현하며, 상위와 하위 레코드 사이에서 N:M 관계를 만족하는 구조이다.
- 상위의 레코드를 Owner, 하위의 레코드를 Member라 하여 Owner-Member 관계라고도 한다.
- 레코드 타입 간의 관계는 1:1, 1:N, N:M이 될 수 있다.
- 대표 DBMS: DBTG, EDBS, TOTAL 등
관계형 데이터베이스(Relational Database)
관계형 데이터베이스는 1970년 에드거 F. 커드 박사가 제안한 데이터 관계형 모델을 기초로 하여, 키(key)와 값(value)들의 관계를 테이블화 시킨 데이터베이스이다. 이 모델은 데이터를 칼럼(column)과 로우(row)를 이루는 하나 이상의 테이블(또는 관계)로 정리하며, 고유 키(Primary key)가 각 로우(레코드 또는 튜플)를 식별한다.
- 정규화를 통한 합리적인 테이블 모델링으로 이상 현상을 제거하고 데이터 중복을 피할 수 있다.
- 동시성관리, 병행제어를 통해 많은 사용자들이 동시에 데이터를 공유 및 조작할 수 있는 기능을 제공한다.
- 메타데이터를 총괄 관리할 수 있어 데이터 표준화를 통한 데이터의 품질을 확보할 수 있다.
- 대표 DBMS: Oracle, DB2, MySQL 등
DBMS(Database Management System)
DBMS는 기존 파일시스템이 갖는 데이터의 종속성과 중복성의 문제를 해결하기 위해 제안된 시스템으로, 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 생성해주고 데이터베이스를 관리해주는 소프트웨어이다.
DBMS의 필수기능
- 삽입/수정/삭제 작업이 정확하게 수행되어 데이터의 무결성이 유지되도록 제어해야 한다.
- 정당한 사용자가 허가된 데이터만 접근할 수 있도록 보안을 유지하고 권한을 검사할 수 있어야 한다.
- 데이터베이스에 동시 접근하여 데이터를 처리할 때 처리결과가 항상 정확성을 유지할 수 있어야 한다.
DBMS의 특징
- 데이터의 중복 방지
- 데이터의 일관성 및 무결성 유지
- 데이터의 표준화 가능
- 데이터의 통합관리 가능
- 데이터의 실시간 처리
- 사용자들은 저장된 자료를 공동으로 이용 가능